JSAI2024 1日目: 生成AI時代のナレッジグラフ
適宜加筆修正します
https://gyazo.com/89ef5527825637e7b26b24b5f477a867
(古崎先生)
Linked Data
Linked Open Data
Wikidata
JapanSearch
国立国会図書館LOD
メディア芸術データベース・ラボ
eStat統計LOD
すべてのデータがIRIで表現されるため、これらの関連性をリンクして記述できる
ナレッジグラフ構築のための生成AIの活用
Knowledge Graph (KG)
正確な知識を得るための体系化されたデータ
理由を説明できるAI技術
推理小説部門
「犯人を当ててください」コンテスト
シャーロックホームズの既存のやつがあるので、生成AIによる手法でどこまで迫れるか?
一般部門
対象領域を問わない任意のナレッジグラフを構築
KG for GenAI
(福田先生)
知識表現
知識ベース、オントロジー
実世界に埋め込まれる人間中心の人工知能技術の研究開発
Gen AI とは
今までで一番汎用的な知識処理システム
常識知識(”平均的”な知識)
KG とは
RDF、SPARQL、OWLなど
KG for Gen AI
外部知識を取り込むチャネルの一つ
”個別的な知識”の参照データとして
事例: VirtualHome2KG: 日常生活の合成知識グラフ化
事例: 動画アーカイブに対するセマンティックVideo Indexing
江上, 福田「文のチャンクに基づく知識グラフを活用したRAG」(NLP2024) 現在精査中
Gen AI for KG
(森田先生)
知識工学、オントロジー工学、セマンティックWeb
生成AIを活用した知識処理
KG とは
知識共有基盤
知識表現
信頼できる情報源
Gen AI for KG
Wikidataを対象としたGPTに基づくエンティティリンキング
固有表現抽出、語義曖昧性解消、知識ベースのエンティティ
Wikipediaを間に挟む
(広田氏)
Anews: 製造業界の情報収集支援ツール、組織での情報収集 組織横断での情報収集
ドメイン知識が必要
テキストからエンティティと関連を抽出して情報を構造化する
定期的にバッチ処理でナレッジを更新
Gen AI とは
あらゆるタスクのベースラインを底上げした技術
KG とは
AIも人も理解・更新しやすいデータベース
事実に基づいた生成を行うために必要な基盤
KG for Gen AI
ナレッジをもとに発送するGen AI
もちろん知識基盤ないアイデア発想はできるが
より具体的なアクションにつなげるためには現状の事実が重要
企業の組織内の知見者発見
(黒川先生)
生成AIとナレッジグラフの融合
Gen AI
連想の引き出し(1次記憶)
頻出パターン
KG
ファクトの引き出し(2次記憶)
ロングテールにも対応
知識のマネージメントコスト
モデルサイズと明示的に与える知識量にはトレードオフ
Gen AIを活用したKG構築
ユーザと製品の関連付けに関するKG
KG for Gen AI
シーングラフ
(パネルディスカッション)
議論の振り返り
https://gyazo.com/6c8bc8c754d0f04552a085e06c722b74 https://gyazo.com/e499173e8f16ee0279a7a65caf52e51b
Gen AIとKGのシナジーの出し方をどう考えるか?
KG作るところの大変さを担ってくれればなあと
人間が両者に求めているところは少しずつ違うよね。KGはどうなっていけばいいのか?
「指で指せる」
根拠に基づいた意思決定。ビジネス用途ではこれがより重要になってくる。
AIの回答にcitation出典を明記するとクリック率が上がる
KGをタスクごとに作るのか。一つの大きなKGを作るのか(理想郷)
情報検索の文脈ではGoogleは後者で成功しているように見えるけどもどうなんだろう daiiz.icon
ドメインに深く根ざした知識のほうが勝ちがあると考えている
領域特化
KG: ???
これって大変ですよね?
Webと実空間の事象、相関があるのか?
KGはWeb上の情報をクローリングして構築されているがギャップはどう埋める?
ローカルでアップデートされた情報を取り込む
Gen AIとKGがシナジーを出すためにはどういう課題があるか?
1:N問題
どこまでドメイン特化するか
Webと実空間の情報更新問題
LLMも知識を持つ
KGから答えてほしいが、LLM自身の知識で答えてしまう
回答生成能力は使いたいがグラウンディングする知識はコントロールしたい問題
toolとして使う上での制御の難しさ
KGは間違いを修正できる
誤知識を”指さして"修正できる
LLMは再度学習し直して治すのが難しいだろうなと
知識グラフを生成AIの情報源として与えるとき
グラフのままでいいのか
JSONでいいのか
自然言語に書き下すのか
グラフを全部説明しようとするとものすごく長くなるけど?
せっかく構造化したのに勿体ないよね
Gen AIとKGへのオープンまたはクローズドな情報の取り込み方をどう考えるか?
クローズドなな知識グラフ
まとめ: なにに期待?
https://gyazo.com/80dc2ca0fcd0a488478b55999b930b89
組み合わせはまだまだ探求の余地がある。好みに応じて色々やろう。
実世界基盤モデルを作るときにはダイバーシティが重要
LLMが学習し尽くしたらオントロジーが不要になるとかではない。あらゆる適切なサイズの情報を構造化しておくことに価値がある。
知識グラフをLLMに効率的に与える方法、推論の可能性
Gen AIとKGはもともと独立して研究されてきた分野。いまこの時代になって融合しようと世界中が取り組んでいる。互いがそれぞれ融合を前提とした研究が進むであろう。
感想・疑問
Gen AIが登場したことにより、厳格すぎないKGという路線は考えられないか?daiiz.icon
RDFトリプルに関して言えば特にp
s,oはIRIで表現されることの価値は理解できる。pはもう少し曖昧でもいいのではないか?
KGに問いかけるためのクエリ構築にGen AI使えそう daiiz.icon
SPARQLクエリが難しすぎる
変化が早い事実を表現するにはどうするといいだろう daiiz.icon